Найти | Информатика и автоматизация

Поиск статей:

Расширенные фильтры

Опубликовано после

Опубликовано до

По автору

Сергей Александрович Краснов, Анатолий Сергеевич Илатовский, Анатолий Дмитриевич Хомоненко, Владимир Николаевич Арсеньев

2017-10-12

Оценка семантической близости документов на основе латентно-семантического анализа с автоматическим выбором ранговых значений

185-204

Предлагается метод оценки семантической близости документов на основе латентно-семантического анализа, учета динамики изменения сингулярных значений матрицы терм-документ и автоматического определения диапазона ранговых значений. Оценка семантической близости документов рассматривается применительно к решению задач выявления дублирования и противоречий в базах данных. Приводится краткий обзор подходов, используемых при оценке семантической близости документов, выявлении дублирования и противоречий в базах данных и хранилищах данных. Приводятся результаты численных примеров оценки семантических зависимостей между термами документов в интересах выявления дублирования и противоречий в базах данных. При этом в качестве результирующей характеристики рассчитывается степень соответствия λ сравниваемых документов. Приведены сравнительные оценки расчета степени соответствия λ документов с помощью основных методов (косинусной меры близости, векторной модели, коэффициента ранговой корреляции Спирмена, статической меры tf-idf — частота термина — обратная документная частота). Показано, что использование предложенного метода анализа динамики изменения сингулярных чисел матрицы «терм-документ» с автоматическим выбором диапазона используемых ранговых значений позволяет устранить зависимость метода латентно-семантического анализа от выбора оптимального ранга.

Анатолий Дмитриевич Хомоненко, Сергей Вячеславович Логашев, Сергей Александрович Краснов

2016-02-15

Автоматическая рубрикация документов с помощью латентно-семантического анализа и алгоритма нечёткого вывода Мамдани

5-19

Предлагается подход к автоматической рубрикации текстовых документов на основе совместного применения метода латентно-семантического анализа (ЛСА) и алгоритма нечёткого вывода Мамдани. Метод ЛСА используется для смыслового анализа информации в системах электронного документооборота путем выявления семантических зависимостей между термами документов и получения коэффициента соответствия сравниваемых векторов. Предлагается база правил для алгоритма нечёткого вывода Мамдани, реализующего автоматическую рубрикацию документов по множеству заданных тематик с возможностью автоматизированного контроля за распределением документов не соответствующим заданным тематикам или имеющим сходство сразу по нескольким тематическим категориям на основе результатов латентно-семантического анализа.

1 - 2 из 2 результатов

Поиск статей

Импакт-фактор

Разделы

Мы в сети

Обратная связь